产品全面升级
Transwarp Data Hub 5.1–大数据平台的新升级
满地翻黄银杏叶的季节,正是星环产品成熟时节。在历经5个月的密集开发后,星环研发团队正式推出Transwarp Data Hub 5.1。
新版本中的产品相较于上一版(5.0)都得到了较大的改进:如Inceptor推出了新一代的向量执行引擎,配合列式存储引擎Holodesk可以为交互式分析场景提供卓越的性能体验;Studio 5.1在报表工具、日志分析、ETL等方面推出了升级的产品方案;Manager增加了应用市场功能,支持在线升级从而进一步简化运维工作。TDH 5.1的这些提升都是为了更有效的满足更多用户的更丰富的需求。
图1:TDH 5.1产品架构
上图是TDH 5.1的产品架构,如果把平台功能模块按照六大主打产品、Studio大数据开发套件、运维管理产品来划分,那么组件应用的改进主要体现在以下几个方面:
分析型数据库 Inceptor
批处理性能提升20%,交互式分析性能提升40%。
自研全新一代存储框架Shiva,支持列式存储Holodesk直接构建其上,大幅提升存储稳定性、提高运维能力并维护高可用性。
增加向量化执行引擎Windrunner,针对数据集市及实时数据仓库的实现高性能分布式计算,可高速读取Holodesk存储,剖析热点计算、充分利用CPU特性完成热点代码生成;对SQL结构进行动态分析,基于向量化思想选取高效的运行时行列对象模型,在提升性能的同时节省内存使用。
实时计算引擎 Slipstream
丰富了复杂事件处理(CEP)的定义语法,提升其描述能力,可通过SQL表达多种时间规则。
新增Session Window会话窗口功能,允许分析特定会话窗口内的数据,可应对如网站用户行为分析等具有明显会话特征的业务场景。
搜索引擎 Search
Search所依赖的ElasticSearch版本升级至5.4.1,查询性能提升20%,存储和索引时间大幅降低。
增加了Kerberos加密等安全保护功能,让Search更加安全可靠。
大数据开发套件 Transwarp Studio
Studio新增了Pilot(报表分析)和Milano(日志聚合)两个组件。其中Pilot是面向数据工程师和科学家的业务可视化和报表工具,Milano是分布式的日志存储、管理和分析平台,帮助用户在集群中快速构建统一的日志分析平台。
ETL工具Transporter新增了Web图形化前端,支持用户通过拖拽控件的方式设计ETL任务,并通过Workflow调度ETL工程。
Rubik新增增量构建功能,增加多种构建Cube的优化策略,从而极大的加快Cube构建过程。
运维与管理平台 Transwarp Manager
新增应用市场板块,作为升级与下载应用的入口,提升产品安装与运维的便捷性。
除了上述变化,在开源组件方面,TDH 5.1不再支持HUE、Oozie和Sqoop2。相对应的,用户可以使用Pilot、Workflow和Transporter分别替代上述工具,获得更友好的功能组合和使用体验。
新产品介绍
第一部分内容提到TDH 5.1的大数据开发套件中增加了报表工具Pilot和日志管理工具Milano两种组件。下面将对这两个产品的功能和优势做更详细的介绍。
报表工具 Pilot
Transwarp Pilot是轻量的自助式分析BI工具,它克服了传统BI工具的多方面缺陷,功能全面,体验智能,不论是对于可视化报表展现的丰富度,还是对于处理性能,都有极致的表现。
Pilot通过以下主要模块覆盖了用户对于报表工具的关键需求:
47 31834 47 14989 0 0 2243 0 0:00:14 0:00:06 0:00:08 2750速构建可视化图表:内置数十种图表样式,满足用户多种分析需求,使得商业智能的实现以更加丰富的表现形式展现。
SQL Lab:Pilot内置SQL IDE,使SQL语句的调试执行与结果集的图表生成一气呵成。
HDFS浏览器:提供Web界面直观操作HDFS文件系统。
团队协同:服务于多租户场景,实现报表的共享与隔离,同时保障信息安全。
Pilot通过傻瓜式的拖拽操作即可实现报表的设计与创建,不要求过高的专业技能,也不用等待模型搭建和技术实现,仅需简单的鼠标点击就可以创造华丽炫酷的图表,其丰富的功能将填补技术人员同业务人员之间在技术能力上的差距,使数据探索变得更加容易。
日志收集与处理平台 Milano
统一的日志处理和分析系统将成为企业应用管理未来发展方向与重要组成,这种架构将大幅提升系统的管理水平,许多企业都开始基于大数据技术来构建日志平台。
Milano就是一套基于Elasticsearch的日志收集、存储和分析平台,不仅可以用于应用于大数据平台的日志聚集,同时也可以用于满足其他应用或者平台的日志处理需求。星环研发内部已将Milano作为统一的日志平台,在近1年的实际生产历练中,Milano做到了全链路高吞吐、全链路安全可用以及全链路高可用,可以适应绝大部分场景的日志分析业务。
更强大的性能
基于代价的优化器(CBO)在版本5.1中得到了进一步改进,在全新CBO的优化实现下,Inceptor批处理性能相较于5.0有明显提升,在TPC-DS 1TB测试中实现20%的性能提升,大幅领先其他计算平台。
Inceptor中开发了全新的自研计算引擎Windrunner,Windrunner是向量化的执行引擎,通过向量化的数据操作配合列式存储Holodesk能降低语句解析和数据传输的开销,同时提高系统的并行化处理和CPU的指令执行并行度,对交互式分析和计算可实现非常好的加速效果。TPC-DS测试中,同样以Holodesk为存储引擎的情况下,Windrunner相较于Inceptor 5.0使性能平均提升了34%,对于部分OLAP场景甚至实现了86%的提升。
结语
TDH 5.1打造了一个功能更全面、可用性更高、性能更优异的大数据分析平台。不仅是同星环TDH的以往版本相比,还是相较于市场上的其他Hadoop产品,TDH 5.1都是一个得到提升的先进的大数据一站式平台,体现出了这段时间以来大数据技术的发展。
星环在一代又一代的产品开发中成长与成熟,每一代产品都见证了我们努力与发展。我们不仅对商业版倾力开发,对社区版也付出投入,努力解决各种问题,适应各种业务场景,向着创造更有影响力和引导力的Hadoop产品不断进步。
往期原创文章
Guardian 5.0全新架构解析:大数据安全防御之盾(二)
Guardian 5.0全新架构解析:大数据安全防御之盾(一)
大数据开放实验室由星环信息科技(上海)有限公司运营,专门致力于大数据技术的研究和传播。若转载请在文章开头明显注明“文章来源于微信订阅号——大数据开放实验室”,并保留作者和账号介绍。